查看原文
其他

统计计量丨古老而神秘的因子分析(二)

数据Seminar 2021-06-03

The following article is from 计量经济学及Stata应用 Author 陈强


——接上期推文


根据上期介绍,假设 p 维可观测随机向量 ,由以下因子模型决定:

其中, 为不可观测的 “共同因子”(common factors),

为 “因子载荷”(factor loading of the jth variable  on the kth factor )。写为更简洁的矩阵形式:

其中, 称为 “因子载荷矩阵”(matrix of factor loadings),简称 “载荷矩阵”(loading matrix)。由于此方程右边所有的量均不可观测,故如不对此模型施加进一步的约束,则不可识别(unidentified without further assumptions)。




因子模型的旋转


事实上,可使用任意 m 维正交矩阵  进行如下线性变换,均不改变此因子模型:

其中,根据正交矩阵(orthogonal matrix)的定义, (单位矩阵)。而  则分别为旋转之后的因子与因子载荷。在几何上,正交变换  相当于将因子  作了旋转(但未拉伸),故名 “因子旋转”(factor rotation)。

显然,我们无法根据  的观测数据来区别  与 ,或者区分  与 ,因为此正交变换不改变因子模型的协方差结构:

进一步,即使不考虑因子载荷矩阵  的正交变换(将其视为同一解),因子模型也依然不可识别。事实上,对于因子模型施加不同的约束或假设,即可得到不同的解。常见的解包括主成分解、主因子解,以及最大似然解。

在实践中,还常常按照某种便于解释的准则(ease-of-interpretation criterion),将因子载荷进行适当的旋转,以便能看到更为简单的结构(a simpler structure)。直观上,因子旋转就像调节显微镜的焦距,以便可以更清晰地看到物体。




主成分解(Principal Component Solution)


因子分析的常见解法从方程  出发,考虑如何从矩阵  分解出形如  的部分。由于协方差矩阵  为对称半正定(positive semi-definite),故可将其对角化,也称为 “谱分解”(spectral decomposition):

其中, 为协方差矩阵  的第 i 个特征值及其相应的特征向量,且

显然,如果对  作以上分解,则因子载荷矩阵(loading matrix) 的第 j 列为

,为第 j 个特征向量  的  倍,而特征向量  正好是  的第 j 个主成分的系数(参见往期关于主成分分析的推文)。

然而,这种分解方法有两个缺陷。首先,所有的 “特别方差”(specific variance) 均为0,因为  为零矩阵,故忽略了 “特别因子”(specific factors)。其次,它使用了 p 个因子来解释 p 个变量,与我们降维(dimension reduction)的初衷背道而驰(希望仅使用更少的因子)。

一种解决方法是,如果最后的  个特征值足够小,则可忽略  对  的贡献,得到以下近似关系:

其中,m 为共同因子的个数。进一步,可将  的主对角线元素作为特别方差矩阵 ,由此可得:

将上式左边的  矩阵替换为样本协方差矩阵(sample covariance matrix)或样本相关系数矩阵(sample correlation matrix),所得的解即为 “主成分解”(principal component solution),因为载荷矩阵  正好由前 m 个主成分系数  的倍数(scaled coefficients of the first few sample principal components)所构成。




如何确定因子个数 


在实际应用主成分解时,首先需要确定因子个数 m。其思路与主成分分析类似,即希望选择足够大的m,以便解释  各分量方差之和的大部分。为此,考虑协方差矩阵  的迹(trace),即其主对角线元素之和:

其中,不同特征值的特征向量正交(),而且 

(标准化为单位长度)。由此可知,第1个因子对总方差的贡献比例为 :

而前两个因子对总方差的贡献比例为:

以此类推。因此,在确定因子个数 m 时,只要使得前 m 个因子对总方差的贡献比例足够大即可:

除了主成分解,因子模型的常见解还包括主因子解与最大似然解等,将于下期继续介绍。

下期推文还将介绍因子得分(factor score)的估计、主成分分析与因子分析的区别与联系、因子分析的 Stata 命令,以及 “交互固定效应”(interactive fixed effects)。

(未完待续)









►一周热文

统计计量丨工具变量法(一): 2SLS

数据呈现丨R绘图:七种基础可视化图,您选对了吗?

软件应用丨经济学专业学习R,您需掌握的R语言包汇总

特别推荐丨老姚专栏:经验观察误导之伯克森悖论

数据呈现丨R绘图:物以类聚,图以群分——聚类分析及可视化

工具&方法丨划重点 !经济学专业学Python需要学哪些内容?——数据分析处理必知必会的知识点

工具&方法丨古老而神秘的因子分析(一)









数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:陈强出处:计量经济学及Stata应用推荐:杨奇明编辑:青酱







    欢迎扫描👇二维码添加关注    


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存